Traitements automatiques pour la migration de documents numériques vers XML
نویسندگان
چکیده
More and more companies are migrating their legacy document management systems toward XML format, the industrial standard for data exchange. In order to reduce the migration cost we propose an approach aimed at automating the conversion of layout-oriented documents to semantic-oriented annotations. The conversion module uses supervised machine learning techniques to learn a conversion model for a collection of documents. The conversion is achieved through a semantic annotation of the document content and structuring the annotations, accordingly to a XML schema that specify the class of target documents. MOTS-CLÉS : Apprentissage supervisé, Extraction d’informations, XML.
منابع مشابه
Une méthode générique de rétroconversion de documents pour la constitution de dossiers numériques
RÉSUMÉ. Dans un certain nombre de cas, les dossiers numériques sont constitués par rétroconversion de documents papier. Or jusqu’à présent ces rétroconversions impliquent de développer, pour chaque type de documents, un système spécifique de reconnaissance. Nous proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le système de reconnaissance adapté à partir de la desc...
متن کاملVers une chaîne XAO intégrée pour une conception centrée sur l''homme - Contribution des documents numériques
RÉSUMÉ. Positionné dans un contexte d’ingénierie concourante, cet article présente une chaîne XAO intégrée pour une conception centrée sur l’homme. Ainsi, dans un environnement de conception collaborative, nous montrons, en nous reposant sur de nouvelles méthodes et outils informatiques qui permettent d’intégrer la simulation virtuelle avec mannequins numériques, qu’il est possible de coconcevo...
متن کاملUn format de partitions interactives
RÉSUMÉ. Nous présentons dans cet article un format XML créé pour coder les partitions interactives générées via le système Iscore. Le développement de Iscore est l’aboutissement de travaux de recherche menés au LaBRI en collaboration avec l’Ircam, visant à aboutir à un système de partitions interactives pour la composition et l’interprétation, basé sur des contraintes temporelles. La question d...
متن کاملApproche innovante pour la recherche et l'extraction coopérative et dynamique d'informations sur Internet
Résumé. Il existe de nombreuses techniques qui permettent de classifier des documents textuels en fonction du centre d’intérêt d’un utilisateur (kNN, SVM, . . .). Malheureusement, l’intégration de ces méthodes dans des plate-formes de textmining est souvent très statique et ne permet pas facilement d’affiner les traitements et/ou résultats au cours du temps. Le but de cet article est de présent...
متن کاملTop_keywords : agrégation de mots-clefs dans un environnement d'analyse en ligne (OLAP)
Résumé. Depuis plus d’une décennie, les travaux de recherche sur OLAP et les bases de données multidimensionnelles ont produit des méthodes, des outils et des moyens d’analyse de données numériques. L’accroissement de la disponibilité des documents numériques entraîne un besoin pour l’ajout de documents XML principalement constitués de données textuelles au sein de bases de données multidimensi...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
- Document Numérique
دوره 9 شماره
صفحات -
تاریخ انتشار 2006